iT邦幫忙

2023 iThome 鐵人賽

DAY 24
0
AI & Data

30天把AI知識傳授給女友系列 第 24

Day24 Pandas 分析時尚商品資料集

  • 分享至 

  • xImage
  •  

Pandas 是一個Python程式語言中的資料處理工具,它的主要用途是幫助人們處理和分析數據。Pandas提供了一種方便的方式,讓你可以載入、整理、分析、和可視化數據。尤其是表格型的資料特別適合 Pandas

打開 cmd 或是 terminal 使用 pip 指令下載 pandas 模組:

pip install pandas
import pandas as pd
import matplotlib.pyplot as plt

使用 pandas 的 read_csv 方法來讀取 csv 檔案,實作這筆資料時匯入時有出錯,錯誤訊息為pandas.parser.CParserError: Error tokenizing data. C error,可能是有某幾行損毀,傳入引數時加上 on_bad_lines='skip' 來解決此問題:

fasion_df = pd.read_csv("./fashion_product_images_small/myntradataset/styles.csv", on_bad_lines='skip')
# 輸出頭十筆資料
fasion_df.head(10)

https://ithelp.ithome.com.tw/upload/images/20230929/20153503kMJcndBE6P.png

顯示出dataframecolumns 來看有哪些可以用的資料

print(fasion_df.columns)

https://ithelp.ithome.com.tw/upload/images/20230929/20153503j5U1Uf3bni.png

此時可以看到 masterCategory、subCategory、articleType 可能是要預測的結果,因此針對這三個性質仔細分析:

plt.figure(figsize=(7,20))
fasion_df.masterCategory.value_counts().sort_values().plot(kind='barh')

https://ithelp.ithome.com.tw/upload/images/20230929/20153503mxsi9IO8sF.png

plt.figure(figsize=(7,20))
fasion_df.subCategory.value_counts().sort_values().plot(kind='barh')

https://ithelp.ithome.com.tw/upload/images/20230929/20153503e6aIe7pkjr.png

plt.figure(figsize=(7,20))
fasion_df.articleType.value_counts().sort_values().plot(kind='barh')

https://ithelp.ithome.com.tw/upload/images/20230929/201535035hO2q5AChV.png

結語

看起來 masterCategory 類別數比較少,本系列會先從這個類別切入,如果有時間會試試看是否可以預測出其他兩個分類。


上一篇
Day23 卷積神經網路實戰 - Fashion Product Images Dataset
下一篇
Day25 建立時尚商品的資料集
系列文
30天把AI知識傳授給女友30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言